性能优化：基础GPU-Driven、Instance Culling、光照优化等 by YXHXianYu · Pull Request #138 · NJUCG/MoerEngine

YXHXianYu · 2026-03-28T12:12:53Z

接下来TODO：

阴影

Instance Culling会把视野外的屋顶剔除掉，导致阴影泄露

代码审查结果【AI】

正确性 Bug（建议提交前修复）

Shader 实例剔除逻辑有误 — [FrustumCull.comp.hlsl:103-125](vscode-file://vscode-app/c:/Program Files/Microsoft VS Code/cfbea10c5f/resources/app/out/vs/code/electron-browser/workbench/workbench.html)

当一个 primitive 有多个 instance 且只有部分可见时，shader 只是把 instance_cnt 设为 visible_count，但没有重排 instance buffer。DrawIndexedIndirect 会从 first_instance 开始画前 visible_count 个 instance，而不是那些真正可见的 instance。

例如：5个instance中第0、2、4个可见 → visible_count=3 → GPU画第0、1、2个（instance 1、2不该被画）

如果你的场景中每个 primitive 都只有 1 个 instance，这个 bug 不会触发。但如果有多实例的 primitive，会导致渲染错误。

为什么没有性能提升

三个原因：

问题	影响
每帧 CPU→GPU 全量上传 `RestoreDrawCommands()`	高 — 每帧从 CPU 内存重新上传整个 draw command buffer（staging buffer + DMA），开销可能已超过剔除收益
使用 `vkCmdDrawIndexedIndirect` 而非 `vkCmdDrawIndexedIndirectCount`	高 — GPU command processor 仍然遍历所有 draw command，`instance_cnt=0` 的 draw 并不是真正免费的
两次 pipeline barrier	中 — compute 和 graphics 之间的 barrier 强制 pipeline flush

潇神小作业之优化ShadowMaskPass

bindless load buffer有寄存器开销问题，需要换回cbv

优化前

优化后

name: RTAO Register Optimization overview: 通过代码重排、简化 RayQuery 控制流、消除运行时分支等手段，降低 RTAO shader 的寄存器峰值占用，提升 occupancy，缓解 MIOT stall。 todos: - id: simplify-rayquery content: "优化 1: 简化 CastVisibilityRay — 添加 RAY_FLAG_FORCE_OPAQUE，移除 while 循环和候选处理分支" status: completed - id: reorder-ray-weight content: "优化 2: 重排循环体 — 将 ray_weight 计算移到 CastVisibilityRay 之前，让 rand_vec 提前死亡" status: completed - id: eliminate-branch content: "优化 3: 消除 sample_mode 运行时分支 — 使用编译期方案替代" status: completed - id: blue-noise content: "优化 4: Blue Noise 替代 Hash RNG — 添加纹理参数，改善 BVH cache 命中率" status: completed

…ositePass来融合AO和SceneColor，AO本身不输出SceneColor；优化AoPass数据流；去除SR相关代码

…4改为8

…ulling，因为目前启用会导致性能更差···

YXHXianYu added 4 commits March 22, 2026 00:01

feat(scene): 在GPrimitive中添加了aabb

5ca1eda

fix(scene): 修复了GPrimitive的AABB没有对齐的问题

350838f

feat(raster): 添加了Instance Culling

f0343e0

Merge branch 'main' of https://github.com/NJUCG/MoerEngine into feat/…

8b21cfa

…gpu_culling

YXHXianYu changed the title ~~最基础的GPU-Driven管线（Instance Culling等）~~ 性能优化：基础GPU-Driven、Instance Culling、光照优化等 Mar 29, 2026

YXHXianYu added 9 commits March 29, 2026 12:30

feat(raster): ShadowMaskPass性能优化，优化CSM Blend时非重合部分的像素的SM采样次数由2到1（Shad…

eabec07

…owMaskPass 6.7ms->5ms）

feat(raster): 将矩阵变换名字统一为space2space形式；去除gbuffer中存储的position，实现了Geomet…

cde55a4

…ryPass 50%的性能提升（2.3ms->1.2ms）

feat(raster): 优化SSAO的表现；修复nearest_depth和错误noise导致的pattern

d38b51f

fix(raster): 删去了多余的position gbuffer；优化了判断StencilAttachment的代码；优化了阴影采样的代码

d558aea

chore: 在justfile中添加了just b和just g

509b336

fix(raster): 整理raster的阴影代码，将CASCADE数从8简化至4

94cabed

feat(raster): 将LightingData通过UBO传入Shader，Registers开销从200+优化为70，从而实现Sh…

960bf8e

…adowMaskPass 90%的性能提升

fix(raster): 将PCSS的[unroll]改为[loop]，16的循环不应该使用[unroll]

35af91c

feat(raster): 将LightingData通过UBO传入LightingPass，优化性能

109c36c

YXHXianYu added 5 commits March 30, 2026 13:38

docs: 添加了AGENTS.md，整理了文档结构

e0bb686

feat(raster): 将RTAO重构为ComputeShader；输出1/2 DownSample的AO纹理；使用独立的AoComp…

b7fb635

…ositePass来融合AO和SceneColor，AO本身不输出SceneColor；优化AoPass数据流；去除SR相关代码

feat(raster): 给1/2 DownSample的RTAO添加了双边滤波Upsample；默认启用DownSample且SPP从…

bc458a6

…4改为8

fix(raster): 修复了Instance Culling导致对Shadow产生贡献的Mesh丢失问题；临时禁用Instance C…

c8c880f

…ulling，因为目前启用会导致性能更差···

YXHXianYu marked this pull request as ready for review March 31, 2026 12:15

YXHXianYu merged commit 39956b8 into main Mar 31, 2026

YXHXianYu deleted the feat/gpu_culling branch March 31, 2026 12:16

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

性能优化：基础GPU-Driven、Instance Culling、光照优化等#138

性能优化：基础GPU-Driven、Instance Culling、光照优化等#138
YXHXianYu merged 18 commits intomainfrom
feat/gpu_culling

YXHXianYu commented Mar 28, 2026

Uh oh!

YXHXianYu commented Mar 29, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

YXHXianYu commented Mar 28, 2026

阴影

代码审查结果【AI】

正确性 Bug（建议提交前修复）

为什么没有性能提升

推荐优化方向

Uh oh!

YXHXianYu commented Mar 29, 2026

潇神小作业 之 优化ShadowMaskPass

优化前

优化后

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

潇神小作业之优化ShadowMaskPass